大型语言模型(LLM)广泛应用于下游域。但是,用于高风险领域任务(例如金融投资和法律质量保证)的llms通常会在没有推理和解释的情况下生成简短的答案。这限制了用户根据其重音做出决策的保证。虽然原始的婴儿床表现出希望,但它在制作过程中缺乏自我纠正机制。这项工作引入了域o 1 s,可以通过监督的细调和树搜索来增强LLMS在域任务上的推理。我们构建了COT-Stock-2K和COT-Legal-2K数据集,以根据其判断力激活特定于域的原因步骤的微调模型。补充 - 我们提出选择性树探索,以自发探索解决方案空间和样品最佳推理路径以提高影响。我们还引入了证明得分,这是一种用于评估域模型的解释性的新指标,并以更丰富的评估尺寸补充了传统的授权指标。关于库存建议的广泛实验和质量保证任务的法律原因证明了域o 1 s的领先性能和解释性。我们的代码可在https:// anonymous.4open上找到。Science/r/domaino1s-006f/。
主要关键词